AI资讯新闻榜单内容搜索- Gemini

南大团队直击大模型高分神话：人类90分，最强模型仅49分

现有大模型评测分数日趋饱和，但与真实体验差距显著。南京大学傅朝友团队牵头，在Google Gemini评测团队邀约下推出视频理解新基准Video-MME-v2。凭借创新的分层能力体系与组级非线性评分，以及3300+人工时高质量标注，揭示模型与人类的巨大鸿沟（49vs90）、传统Acc指标虚高、以及「Thinking」并非总是增益等现象。

来自主题: AI技术研报

8021 点击 2026-04-13 13:48

阿里又一个王炸！Qwen3.5-Omni 全模态硬核实测

阿里刚刚发布了最新一代全模态大模型 Qwen3.5-Omni，在通用音频理解、推理、翻译和对话等维度，已全面超越 Gemini 3.1 Pro。所谓全模态，在于它拥有了接近人类的“感官”。它能听、能看、能说、能写。

来自主题: AI资讯

9832 点击 2026-03-31 11:20

全球 AI 公司烧了几千亿，最后都得抢着给苹果「打工」

就在刚刚，据彭博社报道，iOS 27 将引入一套名为「Extensions」的新机制，允许用户通过设置面板，把 Google Gemini、Anthropic Claude 等第三方 AI 接入 Siri，就像现在调用 ChatGPT 一样直接从 Siri 发起请求。

来自主题: AI资讯

8627 点击 2026-03-27 14:22

无需 VPN 翻墙！香港也能用上谷歌 Gemini 了

香港用户终于等来了这一天——谷歌宣布将逐步向香港开放 Gemini 网页应用，这意味着以后再也不需要翻墙 VPN 就能用上谷歌的 AI 助手了。在此之前，使用香港网络的用户一直无法直接访问 Gemini，需要借助 VPN 等「曲线救国」的方式才能使用。

来自主题: AI资讯

9357 点击 2026-03-19 21:54

从多模态大模型中「拆」出音频向量模型

Google 最近发了 Gemini Embedding 2，他们第一个原生多模态向量模型。文本、图像、视频、音频、文档，全部映射到同一个 3072 维向量空间。这是 Omni Embedding（全模态向量模型）的大趋势：一个架构吃下所有模态，从 jina-embeddings-v4 到 Omni-Embed-Nemotron 再到 Omni-5，大家都在往这个方向收敛。

来自主题: AI技术研报

6023 点击 2026-03-16 15:06

谷歌AGI底座降临！首个原生全模态嵌入模型上线，已实现全模态SOTA

谷歌发布首个原生全模态 Embedding 模型 Gemini Embedding 2！它将文本、图、音视频及 PDF 无损融于统一向量空间，实现跨越五大模态的直接检索。这极大降低了架构成本，赋予了 AI 真正连贯的「记忆」，是重塑 AI 基建的里程碑。

来自主题: AI资讯

9497 点击 2026-03-12 10:21

ICLR 2026｜原生多模态推理新范式ThinkMorph ，让文字与图像在统一架构中共同演化

NUS、ZJU、UW、Stanford、CUHK 联合提出「ThinkMorph」，主张让文字与图像在统一架构里「原生协作」、「共同演化」，而不是像当下大多数多模态模型那样，看完图像就闭上眼睛，后续完全靠文字链条推进。仅用 2.4 万条数据微调 7B 统一模型，视觉推理平均提升 34.74%，多项任务比肩甚至超越 GPT-4o 和 Gemini 2.5 Flash。

来自主题: AI技术研报

7099 点击 2026-03-11 09:22